Quality Analysis of White Wine by Louis

本报告探讨了一个包含4898条记录白葡萄酒物理化学特性和质量的数据。

单变量绘图选择

## [1] 4898   13
##   X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1           7.0             0.27        0.36           20.7     0.045
## 2 2           6.3             0.30        0.34            1.6     0.049
## 3 3           8.1             0.28        0.40            6.9     0.050
## 4 4           7.2             0.23        0.32            8.5     0.058
## 5 5           7.2             0.23        0.32            8.5     0.058
## 6 6           8.1             0.28        0.40            6.9     0.050
##   free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
## 1                  45                  170  1.0010 3.00      0.45     8.8
## 2                  14                  132  0.9940 3.30      0.49     9.5
## 3                  30                   97  0.9951 3.26      0.44    10.1
## 4                  47                  186  0.9956 3.19      0.40     9.9
## 5                  47                  186  0.9956 3.19      0.40     9.9
## 6                  30                   97  0.9951 3.26      0.44    10.1
##   quality
## 1       6
## 2       6
## 3       6
## 4       6
## 5       6
## 6       6
## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##     alcohol         quality     
##  Min.   : 8.00   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.40   Median :6.000  
##  Mean   :10.51   Mean   :5.878  
##  3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :14.20   Max.   :9.000

我们的数据集由13个变量组成,具有近4898个观测值。

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

葡萄酒质量评为0(非常差)到10(非常优秀),质量属性数据呈现正态分布, 大部分酒的质量在5分到7分之间,这批被测试的酒大部分在中等质量水平。 哪些属性与酒的质量有关呢?它们的关系分别是什么样的呢?

再看一下其他属性的分布情况

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200
## 
##  3.8  3.9  4.2  4.4  4.5  4.6  4.7  4.8  4.9    5  5.1  5.2  5.3  5.4  5.5 
##    1    1    2    3    1    1    5    9    7   24   23   28   27   28   31 
##  5.6  5.7  5.8  5.9    6  6.1 6.15  6.2  6.3  6.4 6.45  6.5  6.6  6.7  6.8 
##   71   88  121  103  184  155    2  192  188  280    1  225  290  236  308 
##  6.9    7  7.1 7.15  7.2  7.3  7.4  7.5  7.6  7.7  7.8  7.9    8  8.1  8.2 
##  241  232  200    2  206  178  194  123  153   93   93   74   80   56   56 
##  8.3  8.4  8.5  8.6  8.7  8.8  8.9    9  9.1  9.2  9.3  9.4  9.5  9.6  9.7 
##   52   35   32   25   15   18   16   17    6   21    3   11    2    5    4 
##  9.8  9.9   10 10.2 10.3 10.7 11.8 14.2 
##    8    2    3    1    2    2    1    1

大多数白葡萄酒的固定酸度在6—8g/dm^3,最小值是3.8,最大值是14.2。 在9g后面有少量的高酸度值,超过9g的固定酸度白葡萄酒的质量是什么情况呢?

低于等于9g的固定酸度白葡萄酒的质量是什么情况呢?

从图上看,显然超过9g的固定酸度白葡萄酒的质量偏差。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000
## 
##  0.08 0.085  0.09   0.1 0.105  0.11 0.115  0.12 0.125  0.13 0.135  0.14 
##     4     1     1     6     6    13     3    34     3    44     1    56 
## 0.145  0.15 0.155  0.16 0.165  0.17 0.175  0.18 0.185  0.19   0.2 0.205 
##     4    88     5   141     2   140     1   177     5   170   214     4 
##  0.21 0.215  0.22 0.225  0.23 0.235  0.24 0.245  0.25 0.255  0.26 0.265 
##   191     1   229     4   216     4   253     4   231    10   240     5 
##  0.27 0.275  0.28 0.285  0.29 0.295   0.3 0.305  0.31 0.315  0.32 0.325 
##   218     3   263     5   160     3   198     4   148     4   182     2 
##  0.33 0.335  0.34 0.345  0.35 0.355  0.36 0.365  0.37 0.375  0.38 0.385 
##   134     7   135     9    86     1   104     2    65     2    63     2 
##  0.39 0.395   0.4 0.405  0.41 0.415  0.42 0.425  0.43 0.435  0.44 0.445 
##    61     2    59     1    54     4    36     2    35     2    46     4 
##  0.45 0.455  0.46  0.47 0.475  0.48 0.485  0.49 0.495   0.5  0.51  0.52 
##    25     2    30    15     3    17     3    14     2    14    10    10 
##  0.53  0.54 0.545  0.55 0.555  0.56  0.57  0.58 0.585  0.59 0.595   0.6 
##     8    10     1    14     2     9     4     7     2     4     2     7 
##  0.61 0.615  0.62  0.63  0.64  0.65 0.655  0.66  0.67  0.68 0.685  0.69 
##     7     4     5     2     7     2     3     4     5     3     1     2 
## 0.695 0.705  0.71  0.73  0.74  0.75  0.76  0.78 0.785 0.815  0.85 0.905 
##     3     2     1     1     1     1     2     1     1     1     1     1 
##  0.91  0.93 0.965 1.005   1.1 
##     1     1     1     1     1

葡萄酒中醋酸的含量过高会导致令人不愉快的醋味。挥发性酸度分布偏向左边, 大多数白葡萄酒的挥发性酸度低于0.38g/dm3。 猜测大于0.38g/dm3含量的葡萄酒质量会比较差。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600
## 
##    0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09  0.1 0.11 0.12 0.13 0.14 
##   19    7    6    2   12    5    6   12    4   12   14    1   19   17   27 
## 0.15 0.16 0.17 0.18 0.19  0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 
##   23   33   27   49   48   70   66  104   83  181  136  219  216  282  223 
##  0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39  0.4 0.41 0.42 0.43 0.44 
##  307  200  257  183  225  137  177  134  122  101  117   82   95   37   63 
## 0.45 0.46 0.47 0.48 0.49  0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 
##   46   51   38   39  215   35   25   23   16   19   11   22   13   21    6 
##  0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69  0.7 0.71 0.72 0.73 0.74 
##    6    9   14    4    6    8    7    7    7    5    3    9    5    5   41 
## 0.78 0.79  0.8 0.81 0.82 0.86 0.88 0.91 0.99    1 1.23 1.66 
##    2    2    2    2    2    1    1    2    1    5    1    1

柠檬酸可以增加葡萄酒的“新鲜度”和风味,猜测柠檬酸和质量有正向的关系。 柠檬酸分布偏向左边,大多数白葡萄酒的柠檬酸低于0.5g/dm^3。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800
## 
##   0.6   0.7   0.8   0.9  0.95     1  1.05   1.1  1.15   1.2  1.25   1.3 
##     2     7    25    39     4    93     1   146     3   187     3   147 
##  1.35   1.4  1.45   1.5  1.55   1.6  1.65   1.7  1.75   1.8  1.85   1.9 
##     2   184     4   142     2   165     2    99     1    99     3    59 
##  1.95     2  2.05   2.1   2.2  2.25   2.3  2.35   2.4   2.5   2.6  2.65 
##     2    79     1    51    56     2    42     1    41    40    33     1 
##   2.7   2.8  2.85   2.9     3   3.1  3.15   3.2   3.3   3.4   3.5   3.6 
##    38    36     1    25    17    17     1    28    23    13    31    22 
##   3.7  3.75   3.8  3.85   3.9  3.95     4   4.1   4.2  4.25   4.3  4.35 
##    12     2    21     3    17     3    19    17    31     2    19     1 
##   4.4  4.45   4.5  4.55   4.6   4.7  4.75   4.8  4.85   4.9     5   5.1 
##    14     3    33     2    40    29     5    38     1    35    43    28 
##  5.15   5.2  5.25   5.3  5.35   5.4  5.45   5.5  5.55   5.6   5.7   5.8 
##     2    29     4    17     2    23     2    13     1    16    30    23 
##  5.85   5.9  5.95     6   6.1   6.2   6.3  6.35   6.4   6.5  6.55   6.6 
##     2    19     1    23    21    31    39     1    34    26     1    30 
##  6.65   6.7  6.75   6.8  6.85   6.9  6.95     7  7.05   7.1   7.2  7.25 
##     3    25     1    28     6    20     1    31     2    36    29     2 
##   7.3  7.35   7.4  7.45   7.5   7.6   7.7  7.75   7.8  7.85   7.9  7.95 
##    19     2    40     1    30    29    34     2    41     1    32     1 
##     8   8.1  8.15   8.2  8.25   8.3   8.4  8.45   8.5  8.55   8.6  8.65 
##    32    34     1    36     2    31    13     1    24     1    27     1 
##   8.7  8.75   8.8   8.9  8.95     9  9.05   9.1  9.15   9.2  9.25   9.3 
##    18     2    22    23     1    18     1    17     2    22     2    11 
##   9.4   9.5  9.55   9.6  9.65   9.7   9.8  9.85   9.9    10 10.05  10.1 
##    10     9     1    18     4    22    16     3    18    18     3    14 
##  10.2  10.3  10.4  10.5 10.55  10.6 10.65  10.7  10.8  10.9    11  11.1 
##    23    16    25    16     1    22     1    26    17    11    19    18 
##  11.2 11.25  11.3  11.4 11.45  11.5  11.6  11.7 11.75  11.8  11.9 11.95 
##    18     2    12    14     1    11    15     8     4    35    16     3 
##    12 12.05  12.1 12.15  12.2  12.3  12.4  12.5 12.55  12.6  12.7 12.75 
##    16     1    21     4    15    13    19    16     2    16    16     1 
##  12.8 12.85  12.9    13  13.1 13.15  13.2  13.3  13.4  13.5 13.55  13.6 
##    25     4    25    19    23     1    13    16     7    10     3    12 
## 13.65  13.7  13.8  13.9    14 14.05  14.1 14.15  14.2  14.3 14.35  14.4 
##     4    21     8    18    16     1     4     1    20    17     3    17 
## 14.45  14.5 14.55  14.6  14.7 14.75  14.8  14.9 14.95    15  15.1 15.15 
##     3    17     3    13    14     2    12    14     2    13     7     1 
##  15.2 15.25  15.3  15.4  15.5 15.55  15.6  15.7 15.75  15.8  15.9    16 
##     6     1     9    17    11     6    14     9     1     6     2    10 
## 16.05  16.1  16.2  16.3  16.4 16.45  16.5 16.55  16.6 16.65  16.7 16.75 
##     6     2     7     7     5     1     3     1     2     5     5     2 
##  16.8 16.85  16.9 16.95    17 17.05  17.1  17.2  17.3 17.35  17.4 17.45 
##     4     4     3     3     1     1     5     9    14     1     2     2 
##  17.5 17.55  17.6  17.7 17.75  17.8 17.85  17.9 17.95    18 18.05  18.1 
##     8     3     2     1     4    13     5     2     3     2     3     6 
## 18.15  18.2  18.3 18.35  18.4  18.5  18.6 18.75  18.8  18.9 18.95  19.1 
##     8     3     2     4     1     1     1     4     3     1     3     1 
## 19.25  19.3 19.35  19.4 19.45  19.5  19.6  19.8  19.9 19.95 20.15  20.2 
##     3     4     1     2     3     2     1     4     1     3     1     2 
##  20.3  20.4  20.7  20.8    22  22.6  23.5 26.05  31.6  65.8 
##     1     1     2     2     2     1     1     2     2     1

残糖分布右边有长尾数据,对X轴进行对数转换,更好地了解残糖分布。 转换后的残糖呈双峰分布,左边的峰落差变化大于右边的峰,右边峰数据分布的更均匀。 残糖是发酵停止后剩余的糖量,很少能找到残糖含量低于1克/升的葡萄酒和 超过45克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。 所以认为数据中低于1克/升和超过45克/升的葡萄酒数据为异常值,设置为平均值6.391

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
## 
## 0.009 0.012 0.013 0.014 0.015 0.016 0.017 0.018 0.019  0.02 0.021 0.022 
##     1     1     1     4     4     5     5    10     9    16    19    19 
## 0.023 0.024 0.025 0.026 0.027 0.028 0.029  0.03 0.031 0.032 0.033 0.034 
##    20    34    30    54    58    85    81   108   107   109   119   168 
## 0.035 0.036 0.037 0.038 0.039  0.04 0.041 0.042 0.043 0.044 0.045 0.046 
##   130   200   160   167   157   182   147   184   141   201   170   181 
## 0.047 0.048 0.049  0.05 0.051 0.052 0.053 0.054 0.055 0.056 0.057 0.058 
##   171   174   133   170   115   104   130    99    61    88    68    53 
## 0.059  0.06 0.061 0.062 0.063 0.064 0.065 0.066 0.067 0.068 0.069  0.07 
##    36    46    19    25    23    15     8    18    18     7    18     6 
## 0.071 0.072 0.073 0.074 0.075 0.076 0.077 0.078 0.079  0.08 0.081 0.082 
##     5     2     5     8     2     9     1     2     4     4     2     2 
## 0.083 0.084 0.085 0.086 0.087 0.088 0.089  0.09 0.091 0.092 0.093 0.094 
##     5     5     3     4     3     2     1     2     1     3     3     5 
## 0.095 0.096 0.097 0.098 0.099 0.102 0.104 0.105 0.108  0.11 0.112 0.114 
##     2     6     1     3     1     1     1     1     2     3     1     1 
## 0.115 0.117 0.118 0.119  0.12 0.121 0.122 0.123 0.126 0.127  0.13 0.132 
##     1     3     1     3     1     2     1     4     3     2     1     1 
## 0.133 0.135 0.136 0.137 0.138 0.142 0.144 0.145 0.146 0.147 0.148 0.149 
##     1     1     1     2     2     3     1     1     1     2     1     1 
##  0.15 0.152 0.154 0.156 0.157 0.158  0.16 0.167 0.168 0.169  0.17 0.171 
##     1     2     1     1     4     1     2     2     3     2     2     1 
## 0.172 0.173 0.174 0.175 0.176 0.179  0.18 0.184 0.185 0.186 0.194 0.197 
##     2     2     2     2     2     1     1     2     2     1     1     2 
##   0.2 0.201 0.204 0.208 0.209 0.211 0.212 0.217 0.239  0.24 0.244 0.255 
##     1     2     1     2     1     1     1     1     1     1     1     1 
## 0.271  0.29 0.301 0.346 
##     1     1     1     1

氯化物分布偏左,大多数白葡萄酒的氯化物含量小于0.1g/dm^3

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00
## 
##     2     3     4     5     6     7     8     9    10    11  11.5    12 
##     1    10    11    25    32    25    35    29    55    45     1    51 
##    13    14    15  15.5    16    17    18    19  19.5    20    21    22 
##    55    68    79     1    58    89    80    84     1   101    93   102 
##    23  23.5    24    25    26    27    28  28.5    29    30  30.5    31 
##   110     1   118   111   129    99   112     1   160    99     1   132 
##    32    33    34    35  35.5    36    37    38  38.5    39  39.5    40 
##   109   112   128   129     2   127   111   102     1    89     1   103 
##  40.5    41  41.5    42  42.5    43  43.5    44  44.5    45    46    47 
##     1   104     2    86     1    63     1    75     4   101    64    91 
##    48  48.5    49    50  50.5    51  51.5    52  52.5    53    54    55 
##    66     7    82    64     2    54     1    72     4    68    61    58 
##    56    57    58    59  59.5    60  60.5    61  61.5    62    63    64 
##    42    44    37    39     2    38     2    47     1    29    30    23 
##  64.5    65    66    67    68    69    70  70.5    71    72    73  73.5 
##     1    14    17    22    24    17    11     1     5     6     8     4 
##    74    75    76    77  77.5    78    79  79.5    80    81    82  82.5 
##     5     7     5     5     1     4     2     4     1     7     2     1 
##    83    85    86    87    88    89    93    95    96    97    98   101 
##     4     2     2     4     1     1     1     1     3     1     3     2 
##   105   108   110   112 118.5 122.5   124   128   131 138.5 146.5   289 
##     2     3     1     1     1     1     1     1     1     1     1     1

游离二氧化硫可以防止微生物的生长和葡萄酒的氧化,可以保证葡萄酒不变质。 但含量过高有可能会影响酒的口感。 游离二氧化硫分布偏左,大多数白葡萄酒的游离二氧化硫含量小于60mg/dm^3

总二氧化硫呈正太分布,大多数总二氧化硫含量分布在100-200mg/dm^3。 总二氧化硫:游离和结合形式的SO 2的量; 在低浓度下,SO2在葡萄酒中几乎检测不到, 但在游离SO2浓度超过50ppm时,SO2在酒的鼻子和味道中变得明显。显然SO2浓度过高时 会影响葡萄酒的气味。

密度分布偏左,大多数白葡萄酒的密度小于1g/cm^3。

PH呈正太分布,大多数PH分布在3.0-3.3。

硫酸盐呈正太分布,大多数硫酸盐含量分布在0.4-0.6g/dm^3。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20
## 
##                8              8.4              8.5              8.6 
##                2                3                9               23 
##              8.7              8.8              8.9                9 
##               78              107               95              185 
##              9.1              9.2              9.3              9.4 
##              144              199              134              229 
##              9.5 9.53333333333333             9.55              9.6 
##              228                3                2              128 
## 9.63333333333333              9.7 9.73333333333333             9.75 
##                1              105                2                1 
##              9.8              9.9               10 10.0333333333333 
##              136              109              162                1 
##             10.1 10.1333333333333            10.15             10.2 
##              114                2                3              130 
##             10.3             10.4 10.4666666666667             10.5 
##               85              153                2              160 
## 10.5333333333333            10.55 10.5666666666667             10.6 
##                1                2                1              114 
##            10.65             10.7             10.8             10.9 
##                1               96              135               88 
## 10.9333333333333 10.9666666666667            10.98               11 
##                2                3                1              158 
##            11.05 11.0666666666667             11.1             11.2 
##                2                1               83              112 
## 11.2666666666667             11.3 11.3333333333333            11.35 
##                1              101                3                1 
## 11.3666666666667             11.4 11.4333333333333            11.45 
##                1              121                1                4 
## 11.4666666666667             11.5            11.55             11.6 
##                1               88                1               46 
## 11.6333333333333            11.65             11.7 11.7333333333333 
##                2                1               58                1 
##            11.75             11.8            11.85             11.9 
##                2               60                1               53 
##            11.94            11.95               12            12.05 
##                2                1              102                1 
## 12.0666666666667             12.1            12.15             12.2 
##                1               51                2               86 
##            12.25             12.3 12.3333333333333             12.4 
##                1               62                1               68 
##             12.5             12.6             12.7            12.75 
##               83               63               56                3 
##             12.8 12.8933333333333             12.9               13 
##               54                2               39               36 
##            13.05             13.1 13.1333333333333             13.2 
##                1               18                1               14 
##             13.3             13.4             13.5            13.55 
##                7               20               12                1 
##             13.6             13.7             13.8             13.9 
##                9                7                2                3 
##               14            14.05             14.2 
##                5                1                1

酒精分布偏右,大多数白葡萄酒的酒精含量小于13%。 白葡萄酒的11个物理和化学属性所有观测值近乎都可以呈正太分布。 我猜测,酸度,柠檬酸,二氧化硫和残糖这些属性可能影响白葡萄酒的质量, 可能和葡萄酒的质量存在很强的关系。

单变量分析

你的数据集结构是什么?

数据集中有4898条记录,12个特特征(固定酸度,挥发性酸度,柠檬酸,残糖,氯化物, 游离二氧化硫,总二氧化硫,密度,pH,硫酸盐,酒精和质量)。

属性描述:

输入变量(基于物理化学测试):

  • 1 固定酸度fixed.acidity:大多数与葡萄酒有关的酸或固定或非挥发性(不易蒸发)
  • 2 挥发性酸度volatile.acidity:葡萄酒中醋酸的含量过高会导致令人不愉快的醋味
  • 3 柠檬酸citric.acid:少量发现,柠檬酸可以增加葡萄酒的“新鲜度”和风味
  • 4 残糖residual.sugar:发酵停止后剩余的糖量,很少能找到低于1克/升的葡萄酒和 超过45的葡萄酒克/升被认为是甜的
  • 5 氯化物chlorides:葡萄酒中盐的含量
  • 6 游离二氧化硫free.sulfur.dioxide:游离形式的二氧化硫在分子SO2(作为溶解气体)和 亚硫酸氢根离子之间存在平衡; 它可以防止微生物的生长和葡萄酒的氧化
  • 7 总二氧化硫total.sulfur.dioxide:游离和结合形式的SO2的量;在低浓度下, SO2在葡萄酒中几乎检测不到,但在游离SO2浓度超过50ppm时, SO2在酒的鼻子和味道中变得明显
  • 8 密度density:酒精的密度接近水的密度,密度取决于酒精的百分比和糖含量
  • 9 pH:描述葡萄酒的酸度或碱度如何从0(非常酸性)到14(非常碱性); 大多数葡萄酒在pH值为
  • 10 硫酸盐sulphates:一种葡萄酒添加剂,可以促进二氧化硫气体(SO2)水平, 作为抗菌剂和抗氧化剂
  • 11 酒精alcohol:葡萄酒的酒精含量百分比

输出变量(基于感官数据):

  • 12 质量quality(0到10之间的分数)

其他观察:

  • 大部分酒的质量在5分到7分之间,这批被测试的酒大部分在中等质量水平
  • 大多数白葡萄酒的固定酸度在6—8g/dm^3,超过9g的固定酸度白葡萄酒的质量偏差
  • 大多数白葡萄酒的挥发性酸度低于0.38g/dm3。猜测大于0.38g/dm3含量的葡萄酒 质量会比较差。
  • 柠檬酸分布偏向左边,大多数白葡萄酒的柠檬酸低于0.5g/dm^3

你的数据集内感兴趣的主要特性有哪些?

专家们根据个人感受对这些酒做了评分,0 ~ 10分非常糟糕到非常优秀。 是一些什么成分决定了专家给出的评分呢? 像酸度,残糖,氯化物这些成分决定了酒的味道,抗氧化剂和柠檬酸决定了酒的品质。 二氧化硫既能防止微生物生长保证酒的品质,但在浓度含量过高时又会有难闻的气味, 所以二氧化硫与酒的品质的关系可能负相关。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

质量,酸度,残糖,氯化物,抗氧化剂,SO2和柠檬酸这些特征应该可以让我发现他们 之间的关系。

根据数据集内已有变量,你是否创建了任何新变量?

没有创建新变量。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

在查看残糖的分布时,发现有部分数据残糖含量小于1克/升,还有部分大于45克/升。 残糖是发酵停止后剩余的糖量,很少能找到低于1克/升的葡萄酒和 超过45克/升的葡萄酒,超过45克/升的葡萄酒被认为是甜的。 所以认为数据中低于1克/升和超过45克/升的葡萄酒数据为异常值,设置为平均值6.391

双变量绘图选择

葡萄酒成分之间的相关系数

葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。由于酒的密度取决于 酒精的百分比和糖含量,密度越大酒精含量越小,酒的质量越差。 酒精和氯化物,残糖,密度,游离二氧化硫和总二氧化硫也都有较强负相关性。 此外,相关性明显的还有PH和固定酸度,残糖和密度,残糖和总二氧化硫,密度和总二氧化硫, 游离二氧化硫和总二氧化硫。

图表形式展现葡萄酒成分之间的相关性

从图表来看,alcohol,volatile.acidity,chlorides,density,total.sulfur.dioxide 和quality有较强的相关性,接下来我要仔细研究和quality有关的这些特征。

alcohol和quality之间的相关性

## # A tibble: 6 x 12
##   quality mean_alcohol median_alcohol mean_volatile.a~ median_volatile~
##   <fct>          <dbl>          <dbl>            <dbl>            <dbl>
## 1 3              10.3            10.4            0.333             0.26
## 2 4              10.2            10.1            0.381             0.32
## 3 5               9.81            9.5            0.302             0.28
## 4 6              10.6            10.5            0.261             0.25
## 5 7              11.4            11.4            0.263             0.25
## 6 8              11.6            12              0.277             0.26
## # ... with 7 more variables: mean_chlorides <dbl>, median_chlorides <dbl>,
## #   mean_density <dbl>, median_density <dbl>,
## #   mean_total.sulfur.dioxide <dbl>, median_total.sulfur.dioxide <dbl>,
## #   n <int>

## wqw.noX$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.55   10.45   10.35   11.00   12.60 
## -------------------------------------------------------- 
## wqw.noX$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.40   10.10   10.15   10.75   13.50 
## -------------------------------------------------------- 
## wqw.noX$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.000   9.200   9.500   9.809  10.300  13.600 
## -------------------------------------------------------- 
## wqw.noX$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50    9.60   10.50   10.58   11.40   14.00 
## -------------------------------------------------------- 
## wqw.noX$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.60   10.60   11.40   11.37   12.30   14.20 
## -------------------------------------------------------- 
## wqw.noX$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   11.00   12.00   11.64   12.60   14.00 
## -------------------------------------------------------- 
## wqw.noX$quality: 9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.40   12.40   12.50   12.18   12.70   12.90
## 
##  Pearson's product-moment correlation
## 
## data:  quality and alcohol
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4126015 0.4579941
## sample estimates:
##       cor 
## 0.4355747

alcohol和quality之间有较强的正相关性,在quality(3-5)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。我怀疑quality(3-5)这个区间的酒, 除了alcohol还有其它成分影响了它的quality。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.

volatile.acidity和quality之间的相关性分布

## wqw.noX$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1700  0.2375  0.2600  0.3332  0.4125  0.6400 
## -------------------------------------------------------- 
## wqw.noX$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1100  0.2700  0.3200  0.3812  0.4600  1.1000 
## -------------------------------------------------------- 
## wqw.noX$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.100   0.240   0.280   0.302   0.340   0.905 
## -------------------------------------------------------- 
## wqw.noX$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2000  0.2500  0.2606  0.3000  0.9650 
## -------------------------------------------------------- 
## wqw.noX$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.1900  0.2500  0.2628  0.3200  0.7600 
## -------------------------------------------------------- 
## wqw.noX$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.2000  0.2600  0.2774  0.3300  0.6600 
## -------------------------------------------------------- 
## wqw.noX$quality: 9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.240   0.260   0.270   0.298   0.360   0.360
## 
##  Pearson's product-moment correlation
## 
## data:  quality and volatile.acidity
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2215214 -0.1676307
## sample estimates:
##       cor 
## -0.194723

葡萄酒中醋酸的含量过高会导致令人不愉快的醋味,volatile.acidity和quality之间 有较弱的负相关性,随着volatile.acidity含量quality呈上升趋势。 它们的相关系数是-0.19.

chlorides和quality之间的相关性分布

## wqw.noX$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.02200 0.03625 0.04100 0.05430 0.05400 0.24400 
## -------------------------------------------------------- 
## wqw.noX$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0130  0.0380  0.0460  0.0501  0.0540  0.2900 
## -------------------------------------------------------- 
## wqw.noX$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.04000 0.04700 0.05155 0.05300 0.34600 
## -------------------------------------------------------- 
## wqw.noX$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01500 0.03600 0.04300 0.04522 0.04900 0.25500 
## -------------------------------------------------------- 
## wqw.noX$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.03100 0.03700 0.03819 0.04400 0.13500 
## -------------------------------------------------------- 
## wqw.noX$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01400 0.03000 0.03600 0.03831 0.04400 0.12100 
## -------------------------------------------------------- 
## wqw.noX$quality: 9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0180  0.0210  0.0310  0.0274  0.0320  0.0350
## 
##  Pearson's product-moment correlation
## 
## data:  quality and chlorides
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2365501 -0.1830039
## sample estimates:
##        cor 
## -0.2099344

chlorides和quality之间有较弱的负相关性,随着chlorides含量减少quality呈上升趋势。 它们的相关系数是-0.21.

density和quality之间的相关性分布

## wqw.noX$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9911  0.9925  0.9944  0.9949  0.9969  1.0001 
## -------------------------------------------------------- 
## wqw.noX$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9892  0.9926  0.9941  0.9943  0.9958  1.0004 
## -------------------------------------------------------- 
## wqw.noX$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9872  0.9933  0.9953  0.9953  0.9972  1.0024 
## -------------------------------------------------------- 
## wqw.noX$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9876  0.9917  0.9937  0.9940  0.9959  1.0390 
## -------------------------------------------------------- 
## wqw.noX$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9906  0.9918  0.9925  0.9937  1.0004 
## -------------------------------------------------------- 
## wqw.noX$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9903  0.9916  0.9922  0.9935  1.0006 
## -------------------------------------------------------- 
## wqw.noX$quality: 9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9897  0.9898  0.9903  0.9915  0.9906  0.9970
## 
##  Pearson's product-moment correlation
## 
## data:  quality and density
## t = -22.581, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3322718 -0.2815385
## sample estimates:
##        cor 
## -0.3071233

density和quality之间有明显的负相关性,随着density减少quality呈上升趋势。 密度减少,酒精含量增加,增加酒的质量。 它们的相关系数是-0.31.

total.sulfur.dioxide和quality之间的相关性分布

## wqw.noX$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    19.0   105.8   159.5   170.6   210.0   440.0 
## -------------------------------------------------------- 
## wqw.noX$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    10.0    85.0   117.0   125.3   171.5   272.0 
## -------------------------------------------------------- 
## wqw.noX$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   121.0   151.0   150.9   182.0   344.0 
## -------------------------------------------------------- 
## wqw.noX$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    18.0   107.2   132.0   137.0   164.0   294.0 
## -------------------------------------------------------- 
## wqw.noX$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    34.0   101.0   122.0   125.1   144.2   229.0 
## -------------------------------------------------------- 
## wqw.noX$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    59.0   102.5   122.0   126.2   150.0   212.5 
## -------------------------------------------------------- 
## wqw.noX$quality: 9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      85     113     119     116     124     139
## 
##  Pearson's product-moment correlation
## 
## data:  quality and total.sulfur.dioxide
## t = -12.418, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2017563 -0.1474524
## sample estimates:
##        cor 
## -0.1747372

total.sulfur.dioxide和quality之间有明显的负相关性,随着total.sulfur.dioxide 含量减少quality呈上升趋势。 它们的相关系数是-0.17.

除了和质量相关强的成分,我也想看看其它相关性强的成分散点图分布

PH和固定酸度散点图分布

很明显,pH与固定酸度呈很强的负相关。因为pH的酸性几乎是由固定酸度来体现的。

残糖和密度散点图分布

残糖和密度分布呈正相关性。残糖越高,酒精含量就会越低,酒的密度越大。

残糖和总二氧化硫散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.800   5.500   6.466   9.900  31.600

残糖和总二氧化硫分布呈正相关性。残糖越高,总二氧化硫越大。

密度和总二氧化硫散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

密度和总二氧化硫分布呈正相关性。密度集中分布在0.99到1之间。

游离二氧化硫和总二氧化硫散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00

游离二氧化硫和总二氧化硫分布呈正相关性。总二氧化硫包括游离二氧化硫和结合形式的二氧化硫, 所以游离二氧化硫越高,总二氧化硫越高。

酒精和氯化物散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600

氯化物含量大部分分布在0.009到0.1之间,酒精和氯化物分布呈负相关性, 氯化物含量越高,酒精度越低。

酒精和残糖散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.800   5.500   6.466   9.900  31.600

残糖含量大部分分布在0.6到20之间,酒精和残糖分布呈负相关性, 残糖含量越高,酒精度越低

酒精和密度散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

密度大部分分布在0.9871到1之间,酒精和密度分布呈负相关性, 密度含量越高,酒精度越低

酒精和游离二氧化硫散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00

游离二氧化硫大部分分布在2到75之间,酒精和游离二氧化硫分布呈负相关性, 游离二氧化硫含量越高,酒精度越低

酒精和总二氧化硫散点图分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0

总二氧化硫大部分分布在9到250之间,酒精和总二氧化硫分布呈负相关性, 总二氧化硫含量越高,酒精度越低。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。

由于酒的密度取决于酒精的百分比和糖含量,密度越大残唐含量越高,酒精含量越小,酒的质量越差。

酒精和氯化物,残糖,密度,游离二氧化硫和总二氧化硫也有较强负相关性。

alcohol和quality之间有较强的正相关性,在quality(35)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。我怀疑quality(35)这个区间的酒, 除了alcohol还有其它成分影响了它的quality。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.

你是否观察到主要特性与其他特性之间的有趣关系?

影响质量的成分还有alcohol,volatile.acidity,chlorides,density和total.sulfur.dioxide 它们和quality都有较强的相关性。

你发现最强的关系是什么?

密度和酒精,还有残唐之间有最强的关系,密度与酒精呈现很强的负相关性,密度与残唐 呈现很强的正相关性。密度越大残唐含量越高,酒精含量越小。

多变量绘图选择

Quality by alcohol and Density

Quality by Alcohol and Volatile.Acidity

Quality by Alcohol and Chlorides

Quality by Alcohol and Total.sulfur.dioxide

与双变量分析中猜测一样,在密度增加变大时,酒精含量减少,酒的质量也降低。 酒的质量和酒精含量是很强的正相关性,质量较好的酒大部分的酒精含量高于10. 与酒精含量呈负相关的密度,挥发性酸,氯化物和总二氧化硫,与质量也呈负相关性, 随着这些成分的增加,酒的质量在下降。

Quality versus Alcohol by Density.bucket

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

再次呈现出酒的质量随着酒精含量的增加而提升,密度在0.9~0.994区间的酒呈现出 酒精含量更高,质量更好的分布趋势。

Quality versus Density by Alcohol.bucket

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

相同的结论,酒的质量随着密度的增加而降低,低酒精含量的酒分布在高密度的区域, 这一区域酒的质量偏低,酒精含量更高的酒分布在低密度的区域,低密度区域的酒质量更好。

Quality * Density versus quality.bucket

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.878   6.000   9.000
## 
##  (1,5]  (5,6] (6,10] 
##   1640   2198   1060

## wqw$quality.bucket: (1,5]
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   7.947   9.179   9.551   9.800  10.325  13.426 
## -------------------------------------------------------- 
## wqw$quality.bucket: (5,6]
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.470   9.558  10.411  10.509  11.291  13.870 
## -------------------------------------------------------- 
## wqw$quality.bucket: (6,10]
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   10.61   11.40   11.33   12.28   14.03

酒精在每个密度单位上的含量在酒质量的低中高分组上,分布平均,整体呈上升趋势。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

与双变量分析中猜测一样,在密度增加变大时,酒精含量减少,酒的质量也降低。 酒的质量和酒精含量是很强的正相关性,质量较好的酒大部分的酒精含量高于10. 与酒精含量呈负相关的密度,挥发性酸,氯化物和总二氧化硫,与质量也呈负相关性, 随着这些成分的增加,酒的质量在下降。

这些特性之间是否存在有趣或惊人的联系呢?

相同的结论,酒的质量随着密度的增加而降低,低酒精含量的酒分布在高密度的区域, 这一区域酒的质量偏低,酒精含量更高的酒分布在低密度的区域,低密度区域的酒质量更好。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。


定稿图与总结

绘图一

描述一

葡萄酒质量评为0(非常差)到10(非常优秀),质量属性数据呈现正态分布, 大部分酒的质量在5分到7分之间,这批被测试的酒大部分在中等质量水平。

绘图二

描述二

alcohol和quality之间有较强的正相关性,在quality(3~5)时,alcohol的平均含量有所下降, 之后是跟随alcohol升高quality也升高。质量较好的酒大部分分布在酒精含量较高的部分。 它们的相关系数是0.44.

绘图三

描述三

再次呈现出酒的质量随着酒精含量的增加而提升,密度在0.9~0.994区间的酒呈现出 酒精含量更高,质量更好的分布趋势。


反思

白葡萄酒数据包含4898条观察记录和12个属性特征,有11个属性特征属于客观测试所得( 包括物理和化学测量方法),有1个质量属性是基于传感数据所得(通过葡萄酒专家至少 进行3次评估的中位数),每位专家都对葡萄酒质量进行评分在0(非常糟糕)和10 (非常优秀)之间。

我对每个输入属性都进行了单变量绘图分析,大部分属性数据分布呈正太分布。 残糖分布右边有长尾数据,对X轴进行对数转换,转换后呈双峰分布。

双变量分析中,我对相关系数较强的属性都做了绘图分析。 葡萄酒的质量quality和酒精度alcohol有很强的正相关性,质量quality与密度dencity有 较强的负相关性,而酒精alcohol和密度dencity有更强的负相关。由于酒的密度取决于 酒精的百分比和糖含量,密度越大酒精含量越小,酒的质量越差。